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摘要 : 平方 公里 阵 望 远 镜 (SKA) 即将 开始 建设 , 各 子 工作 包 也 将 进入 关键 设计 评估 阶段 。 
基于 云 与 容器 技术 是 当前 SKA 科学 数据 处 理 器 ( SDP ) 未 来 可 能 采用 、 本 文 针 对 
SDP 超大 规模 海量 数据 处 理 中 所 面临 的 天 文 应 用 软件 快速 部 署 、 运 行 与 实测 要 求 ， 充 分 考虑 
了 天 文 应 用 软件 运行 环境 复杂 , 云 计 算 环境 下 超大 规模 计算 pre a 系统 研究 
并 给 出 了 一 种 使 用 Docker 技术 的 天 文 应 用 软件 通用 自动 部 署 方法 ， 论 文 以 目前 较为 常用 的 
可 见 度 浮 数 校准 软件 SAGECaL 为 例 , 首先 分 析 了 SAGECaL 的 相关 特性 和 分 布 式 部 署 方面 存在 
的 困难 ， 进 而 给 出 了 基于 Docker 容器 技术 的 SAGECal 分 布 式 集群 的 自动 部 署 方法 。 实 验 结 
RAW, 本文 所 提出 的 自动 部 署 方法 极 大 地 提高 了 SAGECalL 分 布 式 集群 的 部 署 效率 ,满足 了 
项 目 组 承担 SKA-SDP 相 a 与 切换 等 需求 。 同时 , 本 工作 也 
为 其 它 天 文 软件 在 云端 的 快速 部 署 与 执行 提供 了 有 益 的 思 
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平方 公里 阵 (SKA) "eae sie A AU REI ATE Fe A EC He, BL A 
据 处 理 器 (SDP) 是 SKA 重要 的 工作 包 之 一 。 为 了 解决 SDP 在 超大 规模 数据 处 理 中 所 面临 的 
问题 ， 近 几 年 科学 家 们 在 各 个 领域 都 开展 了 一 系列 研究 ， 包 括 从 硬件 加 速 器 (GPU 等 )、 计 
算 框 架 "、 系 统 框 架 " 等， 取得 了 一 系列 的 成 果 ”。 

在 诸多 平台 技术 选 型 中 ， 云 计算 以 节省 成 本 、 资 源 动态 整合 、 动 态 可 扩展 、 简 化 管理 维 
护 和 灾难 恢复 等 特性 成 为 了 SKA 天 文 数据 处 理 的 一 种 选择 ,与 一 般 的 基于 互联 网 的 应 用 部 署 
不 同 , 天 文 软件 一 般 在 部 署 运行 时 需要 非常 多 的 三 方 库 文 持 , 运行 时 也 会 有 诸多 的 参数 以 满 
足 不 同 的 要 求 。 天 文 领域 对 容器 技术 的 使 用 还 停留 在 天 文 应 用 软件 的 封装 层面 。 特 别 是 在 天 
文 应 用 软件 有 专人 管理 的 情况 下 , 用 户 还 面临 等 待 系统 管理 员 部 署 特定 软件 的 交付 延迟 问题 
“。 如 何在 云 环境 下 快速 部 署 ， 大 幅度 降低 使 用 成 本 ate) 整体 系统 的 可 用 性 迫切 需要 进 
步 实 验 与 研究 。 同 时 ， 如 何 使 用 Docker’ 配合 OpenStack™, Mesos 和 Kubernates 等 容器 编 
排 软件 来 对 复杂 的 天 文 应 用 软件 进行 封装 从 而 加 快 部 署 速度 ” 正在 成 为 当前 天 文 应 用 软件 
的 热点 。 

SAGECaL (Space Alternating Generalized Expectation Maximization Calibration)” 
是 一 种 执行 速度 快 、 内 存 效率 高 的 射电 干涉 校准 程序 。 它 文 持 点 源 、 高 斯 和 Shapelet 等 多 
种 模型 。SAGECal 支持 CASA 的 MS (Measurement Set) 数据 ， 在 其 分 布 起 应 用 中 实现 了 ADMM 
(Alternating Direction Method of Multipliers) 参数 的 自 适应 更 新 ”"。SAGECal 使 用 期 
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Hie A(t (Expectation-Maximization, EM) 算法 获得 对 于 观测 仪器 和 天 空 模型 的 最 大 似 然 
估计 参数 的 技术 。 普 通 的 EM 算法 应 用 非 线性 县 加 信号 的 参数 估计 ，SAGECaL 采用 一 种 被 称 
为 SAGE 算法 的 EM 改进 算法 来 达到 与 普通 EM 算法 相 比 更 快 的 收敛 速度 ;与 最 小 二 乘 估计 方 
法 相 比 减少 了 计算 复杂 度 ; 与 剥离 校准 方法 相 比 提高 了 校准 质量 。 为 了 应 对 新 一 代 射 电 干涉 
望远镜 (如 SKA) 的 海量 数据 计算 需求 ，SAGECal 支持 在 频率 上 分 布 式 并 行 校 准 ， 代 码 实现 
时 可 以 支持 单 CPU、 硬 件 GPU 或 MPI 并 行 计算 等 多 种 部 署 环境 。 

在 SKA-SDP 方案 设计 阶段 , 为 给 出 较为 可 信 的 计算 资源 需求 分 析 以 及 能 耗 设计 , 项 目 组 


和 国 乡 


团队 在 合作 


Fh， 拟 通 过 在 不 同 环境 下 SAGECal 的 部 署 与 实际 运行 , 给 出 不 同 配置 、 不 


同 节 点 数 、 不 同 参数 和 输出 精度 情况 下 的 系统 开销 分 析 结 果 , 根据 能 源 与 计算 开销 最 终 给 出 


SDP 数据 处 到 


法 ， 有 效 推动 了 SDP 相关 工作 的 开展 。 


1 基于 容器 技术 的 自动 部 署 


1. 1 基本 需求 分 析 


的 较 优 设计 。 显 然 ， 采 用 传统 的 手工 安装 与 环境 配置 的 方法 远 远 满 足 不 了 工作 
开展 的 要 求 。 本 文 在 云 环 境 下 快速 部 署 SAGECal 软件 开展 了 深入 研究 , 获得 了 较 好 的 解决 方 


为 了 有 效 地 给 出 测试 数据 , 我 们 重点 研究 了 如 何 快速 部 署 一 个 基于 SAGECaL/MPI 的 分 布 
E 《以 下 简称 集群 )。 下 面 列 出 了 部 署 过 程 中 的 关键 点 : 


RER 


根据 节点 情况 编辑 集群 列表 
设置 集群 节点 处 于 同一 网 段 
配置 NFS 


配置 各 节点 SSH (Secure Shell) 免 秘 钥 登录 


配置 MPI 集群 环境 


各 节点 的 CASACORE、SAGECaL 和 OpenMPI 使 用 同一 版 本 编译 


在 实际 部 署 和 使 用 过 程 中 面 还 面临 着 以 


设置 ; 


异 使 得 用 户 所 选 Linux 操 { 


(2) SAGECaL 的 编译 需要 人 了 


FE 系 统 发 行 版 本 呈现 多 样 化 ，SAGECaL 的 编译 和 部 署 需要 进行 专 有 
[解决 组 件 依赖 关系 , 特别 是 SAGECaL-MPI 和 SAGECaL-GPU 


下 问题 ; (1) 由 于 用 户 人 硬件 环境 和 使 用 偏好 的 差 


的 编译 ,还 需 根据 实际 情况 人 工 编辑 配置 文件 才能 编译 成 功 。 这 对 于 非 专 业 人 员 来 说 , WA 


地 增加 了 部 署 的 难度 。 


针对 上 述 关 键 点 , 拟 通过 一 套 配 置 脚本 自动 配置 部 署 过 程 中 的 每 一 个 环节 。 在 实际 部 署 


和 使 用 过 程 中 面临 的 问题 可 以 通过 Docker 对 SAGECaL 进行 封装 来 解决 。 配 合 使 用 交互 方式 


友好 的 用 户 接 口 将 进一步 降低 使 用 难度 。 


1.2 部 署 的 整体 思路 


集群 的 自 


通讯 来 实现 自动 配置 。 其 中 ,构造 镜像 时 不 仅 封装 了 SAGECal 软件 ， 还 封装 了 自动 部 署 的 配 
置 脚 本 用 以 启动 节点 时 根据 节点 角色 的 不 同 产生 不 同 的 配置 行为 。Docker Swarm (以 下 简称 


Swarm) 是 Docker 自 带 的 集群 管理 工具 ,其 主 
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动 部 署 是 通过 Docker 构造 SAGECal 镜像 〈 以 下 简称 镜像 ) 并 通过 部 署 服 务 启 
动 镜 像 生 成 多 个 SAGECal 容器 (以 下 简称 容器 )， 然 后 各 容器 通过 0verlay 网 络 进行 跨 容器 


管理 容器 云 上 的 各 种 资源 ”。 


要 作用 是 在 若干 台 主 机 上 建立 容器 云 并 通过 统 
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Nginx 负 载 均衡 服务 器 


拉 取 镜像 并 启动 容器 


oo 


执行 集群 命令 


图 1 自动 部 署 流程 图 


Fig.1 Diagram of automatic deployment 


用 户 首先 对 可 用 机 器 进行 初始 化 ， 包 括 创建 Swarm 管理 的 容器 云 、 配 置 NFS (Network 
File System) 和 创建 私有 镜像 仓库 。 构 建 服 务 和 销毁 服务 分 别 用 于 构建 镜像 和 集群 销毁 。 
部 署 服务 会 调用 构建 服务 和 销毁 服务 并 实现 了 服务 编排 、 弹 性 伸缩 、 集 群 节点 发 现 与 维护 和 
用 户 接口 等 功能 。 在 集群 运算 结束 后 用 户 可 以 从 NFS 指定 目录 获取 处 理 结果 。 


1. 3 镜像 的 构建 与 组 成 


镜像 是 基于 Linux 主流 发 行 版 基础 镜像 构建 的 。 本 文选 用 Debian8.6 基础 镜像 通过 
Dockerfile 构建 方式 构建 镜像 ， 镜 像 中 的 主要 软件 包括 SSH, CASACORE, Glib, OpenBLAS, 
Gec, Make, OpenMPI 和 SAGECal. 


SAGECal 镜像 
角色 : 


master / worker 


get_hosts 


mpi_bootstrap 
ssh 
id_rsa 
id_rsa.pub 
swarm. conf 


图 2 自动 部 署 脚本 封装 示意 图 
Fig.2 Diagram of automatic deployment Script encapsulation 
作为 通用 镜像 ,为 了 让 节点 容器 在 启动 后 能 够 根据 自身 在 集群 中 的 不 同 角色 自动 进行 不 
同 的 操作 , 在 制作 镜像 的 时 候 需 要 将 定义 了 不 同 操作 的 脚本 以 及 自动 维护 集群 列表 的 相关 脚 
本 一 同 打包 进 镜像 ”。 同 样 ， 为 了 实现 集群 内 部 节点 间 及 裸 机 操作 系统 与 集群 主 节 点 间 的 
SSH 免 秘 钥 登 录 , 裸 机 操作 系统 的 公 是 也 需 写 入 镜像 并 配置 SSH 登录 免 提 示 等 相关 配置 工作 。 


1.4 自动 部 署 


1.4.1 初始 化 


首先 ， 对 可 用 物理 机 进行 初始 化 。 提 前 选取 一 台 物 理 机 作为 物理 机 机 群 的 主 节 点 ， 其 余 
物理 机 作为 物理 机 机 群 的 子 节 点 。 通 过 人 工 配 置 的 方式 在 各 人 台 物 理 机 操作 系统 中 配置 SSH 
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免 秘 钥 登 录 和 设置 开机 启动 的 自动 化 脚本 使 得 各 人 台 物 理 机 开机 后 会 主动 向 物理 机 机 群 的 主 
节点 发 起 并 保持 SSH 连接 从 而 让 主 节点 感知 到 其 余 物理 机 的 存在 并 一 直 监 控 和 维护 物理 机 
机 和 群 列 表 的 变化 (具体 原理 与 2.4. 3 部 分 相同 )。 
其 次 , 配置 NFS 用 于 容器 间 共 享 数据 。 在 本 文中 所 有 机 器 都 将 各 目的 NPS 共享 目录 挂 载 
进 容 器 ， 这 样 用 户 就 可 以 通过 裸 机 操作 系统 直接 和 容器 进行 数据 交换 。 

然后 , 创建 私有 镜像 仓库 并 配置 负载 均衡 服务 用 于 镜像 分 发 。 如 图 1 所 示 ， 基 于 对 镜像 
分 发 容错 的 考虑 , 私有 镜像 仓库 采用 横向 扩展 的 形式 分 布 在 多 台 物 理 机 上 。 构建 服务 构建 好 
镜像 后 将 同时 推送 镜像 至 各 私有 镜像 仓库 中 。 通 过 配置 Nginx 负载 均衡 服务 以 提供 统一 的 镜 
像 拉 取 地 址 供 自 动 部 署 服务 自动 从 私有 镜像 仓库 下 载 押 需 镜像 并 局 动容 器 进入 工作 状态 。 


图 3 容器 云 创 建 示意 图 


Fig.3 Block diagram of container cloud creation 
最 后 ,自动 部 署 容器 云 。 容 器 云 部 署 模块 封装 了 直接 在 物理 机 机 群 主 节点 执行 命令 的 脚 
本 、 按 照 IP 列表 批量 执行 命令 的 脚本 和 物理 机 机 群 列表 对 比 监控 等 功能 的 脚本 。 如 图 1 和 
X 3 Pitas, 用 户 通过 用 户 接 口 调用 容器 云 部 署 模 块 对 容器 云 进行 自动 部 署 。 具体 部 署 流程 如 


TA} 


1、 容 器 云 部 署 模块 通过 封装 了 Swarm 主 节点 初始 化 命令 的 命令 对 Swarm 主 节 点 进行 初 
台 化 并 将 获得 的 加 入 命令 写 入 一 个 临时 文件 以 备 后 期 调用 。 

2、 容器 云 部 署 模 块 从 物理 机 机 群 列表 第 二 行 开 始 依次 读 取 IP 地 址 并 配合 批量 执行 命 
令 的 脚本 对 目标 物理 机 远程 执行 第 一 步 中 获得 的 加 入 Swarm 集群 的 命令 。 

3、 物理 机 机 群 列表 对 比 监控 功能 会 持续 通过 封装 了 Swarm 集群 节点 查看 命令 的 功能 模 
块 维护 Swarm 集群 IP 列表 ， 同 时 不 断 地 将 Swarm 集群 IP 列表 与 物理 机 机 群 列表 进 
行 比 对 。 当 两 个 列表 的 行 数 一 致 、 内 容 一 致 和 Swarm 性 为 Active 时 ， 
认为 所 有 物理 机 均 加 入 了 Swarm 集群 ,然后 启动 初始 界面 等 竺 用户 输入 集群 自动 部 
署 命 令 Zo 

4、 当 有 新 的 物理 机 开机 时 物理 机 机 群 列表 会 被 自动 更 新 , 同时 触发 容器 云 部 署 模 块 对 
新 加 入 的 物理 机 执行 第 一 步 中 获得 的 加 入 命令 使 其 自动 加 入 Swarm 集群 。 

通过 物理 机 机 群 列表 对 比 监控 功能 的 持续 监控 ,不 但 实现 了 物理 机 数量 动态 变化 的 容器 

云 自 动 维护 , 还 对 容器 云 的 自动 部 署 具备 一 定 的 容错 功能 。 后 期 的 集群 自动 部 署 都 将 在 容器 

云 上 实现 。 


1. 4.2 创建 Overlay 网 络 和 集群 节点 


在 启动 集群 节点 前 , 需要 准备 好 Overlay 网 络 以 供 节点 容器 在 私有 轴 辑 网 上 进行 跨 主 机 
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通讯 。 在 自动 部 署 过 程 中 创建 Overlay 网 络 是 通过 封装 如 下 命 


称 o 


docker network create 
--driver overlay 
--subnet ${NETWORK_SUBNET} 
--opt encrypted 
${NETWORK_NAHE} 


AAA 
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令 实现 网 络 配置 和 指定 网 络 名 


自动 部 署 还 封装 了 Swarm services 声明 性 模型 的 相关 命令 来 定义 服务 的 期 望 状态 并 依 
占 


赖 Docker 来 维持 该 状态 和 编排 相关 的 服务 。 本 文中 集群 的 节点 


工作 服务 编排 子 节点 。 具 体 命令 如 下 : 


分 别 | 


主 服 务 编排 主 节 点 ， 


docker service creat 
-name ${MPI_| MASTER AUTONATIC_SERVICE_NAME} 
-repl icas 
--network ${NETWORK_NAME} 
-User root 
--mount type=bind, source=$(pwd)/share/project ,destination=/root/project À 
“${IMAGE_TAG}" mpi_bootstrap 
mpi_master_service_name=${MPI_MASTER_AUTOMATIC_SERVICE, GEN 
mpi_worker_service_name=${MPI_WORKER_AUTOMATIC_SERUICE FER 
host_number: =${HOST_| NEER) 
role=master-automati 


一 一 一 一 一 


docker service create 


--name ${MPI_WORKER_AUTOMATIC_SERUICE_NAME} 


--replicas ${NUM_WORKER} 
--network ${NETWORK_NAME}> 
--user root 


--mount type=bind,source=$(pwd)/share/project ,destination=/root/project \ 
\ 


“S<IMAGE_ TAG}" mpi_bootstrap 


mpi master_service_name=${MPI_MASTER_AUTOMATIC_SERVICE_NANE}\ 
mpi_worker_service_name=' =${MPI_ WORKER_AUTOMATIC_SERUICE_NAME}\ 


role=worker-automatic 


errre 


按照 角色 的 不 同 , 集群 的 节点 起 初 都 是 每 组 服务 局 动 一 


个 容器 , 但 子 节 点 数 会 按照 工作 


服务 的 配置 进行 弹性 扩容 。 etude 同一 个 Overlay 网 络 和 一 致 的 NFS 目录 。 
会 根据 role 参数 决定 这 个 节点 容器 在 启动 后 


mpi bootstrap 文件 定义 了 一 组 操作 命令 ， 


执行 何 种 操作 。 其 中 ， 主 节点 还 传递 了 ioe number 参数 


作为 集群 规模 的 预 设 值 。Swarm 


services 虽然 可 以 设置 容器 数量 ， 但 运行 集群 还 需要 通过 在 容器 内 自动 维护 集群 列表 并 确 


保 达 到 集群 规模 预 设 值 后 才能 执行 用 户 输入 的 集群 计算 命令 。 


1.4. 3 集群 节点 的 发 现 与 维护 


集群 节点 的 发 现 采 用 节点 主动 暴露 IP 的 方式 实现 。 
ARP (Address Resolution Protocol) 缓存 的 持续 监控 。 
起 SSH 连接 并 访问 主 节 点 dev 目录 下 的 null 文件 。 通过 


点 便 通 过 ARP 缓存 感知 到 子 节 点 的 IP 变化 以 达到 集群 列表 动态 维 


-i "froot/ .ssh/id_rsa” 
root@${MPI_MASTER_SERUICE_NANE} 


ssh -T -0 “StrictHostKeyChecking no" 

\ 

\ 
“tail -f /dev/null" 


由 于 预 设 了 集群 规模 , 所 以 还 需要 一 个 变量 作为 标识 来 通知 集 
是 否 达 到 既定 规模 。 本 文 设 置 了 CLUSTER GC57_P54DF 变 量 并 默认 0 为 外 
集群 准备 完毕 。 主 节点 通过 不 断 监控 集群 列表 的 变化 情况 发 现 集群 达 至 
量 值 被 修改 为 1 并 告知 主 节点 停止 对 集群 列表 的 监控 ,然后 启动 图 5 所 示 初 始 界 面 等 待 用 户 


输入 集群 计算 命令 。 


1. 4.4 用 户 接口 


主 节点 最 先 启动 ， 启 动 后 就 开启 对 


护 。 


各 子 节点 启动 后 会 主动 向 主 节点 发 
十 持 续 保持 与 null 文件 的 连接 , FEW 


SSH 连接 命令 如 下 : 


群 维护 模块 所 创建 的 集群 


和 群 未 准备 就 绪 ，!] 为 


| 既定 规模 的 时 候 , 变 
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$ ./deploy.sh init 


2. Spin up cluster: 
$ ./deploy.sh login 
Example: 
$ ./deploy.sh down 


Get host list: 
$ get hosts > hosts 


or 
$ vi /etc/opt/hosts 


Ichessman@Chessman:~$ oO 


## ## ## 
## ## #4 HH ## 


[To run cluster in an interative shell: 
1. Container cloud initialization: 


$ ./deploy.sh up size=10 

3. Login to master node: 

4. Execute other command at master node 
$ ./deploy.sh exec [COMMAND] 
$ ./deploy.sh exec vi /etc/opt/hosts 


5. Termination and removal of manual deployment clusters: 


[To run directly a shell command in master node: 


then $ vi hosts 


图 4 初始 界面 


Fig.4 Initial interface 


集群 的 自动 部 署 由 图 4 中 例 2 所 示 命 令 启动 。 用 户 根 据 实际 需要 设置 集群 规模 , FF A 


部 署 完 成 后 用 户 界面 会 停留 在 初始 界面 并 等 待 用 户 输入 集群 计算 命令 或 其 他 命令 


.通过 提供 


交互 友好 的 用 户 接口 , 用 户 只 需 提供 较 少 的 必要 参数 即 可 完成 集群 计算 、 终止 并 删除 集群 和 


进入 集群 节点 查看 运行 情况 等 多 种 操作 。 


1. 4.5 容错 处 理 


集群 自动 部 署 过 程 中 会 出 现 硬 件 资 源 不 足 、 主 节点 没有 启动 或 骨 江 和 网 络 中 断 等 因素 导 


致 部 署 过 程 出 错 。 如 果 集 群 长 时 间 没有 准备 就 绪 ， 目 动 部 署 模块 会 进行 回 退 处 理 释 放 资 源 。 
如 果 回 退 失 败 , 可 以 手工 运行 图 4 中 例 5 所 示 命 令 强 制 销毁 已 创建 的 服务 并 将 所 占 资源 全 部 
释放 ,经 过 对 资源 申请 参数 和 网 络 可 达 性 的 进行 检查 后 可 再 次 执行 集群 自动 部 署 命令 进行 自 


动 部 署 。 


总 的 来 说 , 对 于 自动 部 署 的 全 过 程 中 如 果 各 个 部 分 的 容错 机 制 失 效 , 采取 的 默认 策略 是 


进行 回 退 并 释放 资源 。 


2 实验 设计 


上 述 步骤 给 出 了 以 SAGECaL 为 例 的 自动 部 署 方法 。 本 章 通过 实验 , 测试 并 比较 在 不 同 服 


务 器 数量 和 不 同 集群 规模 情况 下 集群 部 署 和 集群 计算 的 时 效 性 以 及 选用 分 布 式 部 署 进行 集 


群 计算 的 合理 性 。 


2. 1 实验 环境 


实验 所 用 服务 器 型 号 均 为 电光 天 阔 620R， 使 用 Debian9. 4 stable 作为 物理 机 操作 系统 
并 安装 Docker18. 03. 1-ce 和 NFS 组 件 。 基 础 服务 节点 安装 了 Docker、NFS 服务 端 和 部 署 
Docker 私有 镜像 仓库 ， 其 他 节点 安装 了 Docker 和 NFS 客户 端 。 镜 像 基于 Debian8. 6 基础 镜 


像 采 用 Dockerfile 构建 镜像 的 方式 进行 构建 。 
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本 次 实验 使 用 十 二 台 服 务 嚣 来 进行 实验 。 其 中 基础 服务 节点 作为 主 节点 , 其 余 机 器 作为 
子 节 点 。 服务 器 间 使 用 干 兆 以 太 网 相互 连接 且 在 同一 个 网 段 内 且 可 以 相互 连通 , 集群 运行 在 
私有 Overlay 网 络 中 。 为 了 尽 可 能 的 还 原 真 实 的 部 署 情形 , 每 次 进行 实验 之 前 都 会 清除 服务 
器 上 所 有 镜像 以 确保 每 次 自动 部 署 都 是 从 头 执行 。 为 了 防止 集群 计算 的 时 间 被 缓存 押 影 响 ， 
每 次 实验 完成 后 均 对 所 有 服务 器 进行 重启 操作 ， 确 保 清 空 所 有 计算 过 程 中 所 产生 的 缓存 内 
容 。 实 验 所 用 MS 数据 来 源 于 SAGECaL 自 带 的 测试 数据 。 


2. 2 时 效 性 和 合理 性 


本 次 实验 在 容器 云 环境 下 通过 在 不 同 数量 服务 器 上 部 署 不 同 规模 的 集群 来 观察 集群 部 
署 和 集群 计算 的 时 间 变 化 情况 。 每 组 部 署 共 进行 五 次 并 记录 其 完成 时 间 ,， 取 其 平均 数 作为 最 
终 部 署 完成 时 间 。 集 群 计算 命令 如 下 : 


7usr/bin/time -u -0 /root/project/ResultOutput/TimeProcessOutput mpirun 

--allow-run-as-root -np 32 -hostfile /root/hosts --mca yield_when_idle 1 

-mca orte_tmpdir_base /tmp /root/sagecal/MPI/sagecal-mpi 

-f froot/data/MS/sm.ms -A 26 -P 2 -r 5 -s /root/sagecal/test/3c196.sky.txt 

-c froot/sagecal/test/3c196.sky.txt.cluster -p /root/project/ResultOutput/sm.ms solutions 

-n 16 -t 1 -e 3 -g 2 -1 16 -m 7 -x 16 -F 1 -j 5 > /root/project/ResultOutput/SAGECaLMPIProcessOutput 


为 了 降低 计算 量 ， 各 组 实验 均 只 计算 一 个 MS 数据 ，ADMM 迭代 次 数 设 置 为 20 次 。 进 程 
数 依 据 容 器 数 来 设 定 ， 每 一 个 节点 就 是 一 个 容器 ， 一 个 进程 对 应 一 个 容器 。 命 令 执行 时 间 存 
放 在 /root/project/ResultOutput/ 目 录 下 的 TimeProcessOutput 文件 中 。 集 群 的 缓存 文件 
存放 在 /tmp 文件 夹 下 。 竺 处理 的 MS 数据 存放 在 /root/data/MS/ 文 件 夹 下。 集群 计算 选择 使 
用 3c196 模式 进行 计算 ， 最 终 计算 结果 存放 在 /root/project/ResultOutput/ 目 录 下 的 
sm.ms. solutions 文件 中 。 

EDERA 620R 服务 器 配备 两 颗 4 核 CPU 和 46 内存， 总 共有 12 台 可 用 服务 器 。 每 一 个 
碟 群 节点 在 计算 时 启动 一 个 进程 ， 也 就 是 在 96 个 集群 节点 以 内 的 规模 情况 下 一 个 进程 对 应 
一 个 CPU 内 核 。 集 群 计 算 时 间 指 集群 部 署 好 后 从 启动 命令 开始 到 得 到 计算 结果 的 时 间 。 整体 
部 署 时 间 指 从 私有 镜像 仓库 下 载 镜像 到 集群 部 署 完 毕 的 时 间 。 集 群 创 建 时 间 指 服务 器 已 经 下 
载 好 镜像 的 情况 下 部 署 出 一 定 规模 的 集群 所 花费 的 时 间 。 

表 1 实验 结果 统计 表 
Tab. 1 Statistical table of experimental results 


服务 器 数 ”集群 节点 数 ”集群 计算 时 间 ( 秒 ) ”整体 部 署 时 间 ( 秒 ) ”集群 创建 时 间 ( 秒 ) ”部 署 与 计算 时 间 比 ( 秒 ) 


a | 


ine 


4 32 619.9 13.8 3.1 2. 23% 
8 64 501. 3 24. 1 4.8 4. 81% 
12 96 319:7 36. 9 6.0 9. 72% 
12 500 394. 2 39. 3 9.2 9. 97% 
12 1000 416.0 43. 8 12.9 10. 53% 


从 表 1 可 以 看 出 集群 的 创建 时 间 很 短 ， 加 上 SAGECaL 镜像 的 传输 时 间 ，1000 个 节点 规 
模 的 集群 在 一 分 钟 以 内 部 署 完毕 是 传统 人 工 部 署 所 不 能 比拟 的 。 随 着 服务 器 数量 的 增加 ， 计 
算 能 力 得 以 提升 ， 集 群 计 算 时 间 逐 渐 缩 短 。 但 随 着 计算 进程 数 超过 可 用 CPU 内 核 数 后 ， 由 于 
存在 大 量 进程 切换 ， 计 算 时 间 有 小 幅 增 长 。 
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图 5 集群 部 署 时 间 
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图 6 部 署 时 间 与 计算 时 间 


Fig.5 Cluster delployment time Fig.6 Deployment time & calculation time 


如 图 5 所 示 , 整个 部 署 过 程 中 镜像 的 网 络 传输 时 间 所 占 比例 仍然 很 大 , 在 镜像 分 发 过 程 


中 集群 的 网 络 传输 时 间 损耗 依 | 


日 明显 。 但 从 图 6 可 以 看 出 在 1000 个 节点 的 规模 下 整体 自动 


部 署 时 间 与 集群 计算 时 间 相 比 整体 自动 部 署 时 间 所 点 比例 仅 为 10%。 由 此 可 知 ， 部 署 过 程 的 


时 间 损 耗 并 不 是 主要 因素 , 性 能 瓶颈 仍然 还 在 硬件 计算 能 力 上 。 通过 分 布 式 整合 额外 的 计算 


资源 并 通过 自动 部 署 方 法 提高 部 署 效 率 , 在 容器 云 下 部 署 SAGECaL 这 类 计算 密集 型 的 应 用 是 


合理 的 。 


3 结论 与 展望 


云 环境 中 使 用 基于 容器 技术 的 自动 部 署 方法 在 提高 部 署 效率 的 同时 便捷 地 整合 了 更 多 
的 计算 资源 ， 使 得 天 文 应 用 软件 一 次 编译 后 便 可 以 方便 地 运行 在 不 同 的 硬件 资源 上 。 实 验 结 
果 表 明 ， 本 文 给 出 的 自动 部 署 方法 极 大 地 提高 了 集群 的 部 署 效率 , 方便 用 户 把 主要 精力 集中 


在 天 文 数据 处 理 层面 。 


为 了 应 对 海量 数据 处 理 需 求 , 在 当前 并 行 化 发 展 的 趋势 下, 部 分 天 文 应 用 软件 已 经 对 基 
于 MPL 进行 分 布 式 并 行 计算 的 并 行 方式 提供 了 文 持 。 基 于 容器 技术 的 自动 部 署 方法 可 以 对 所 


有 基于 MPI 进行 分 布 式 并 行 计算 的 天 文 应 用 软件 提供 展 好 支持 ， 是 一 种 通用 自动 部 署 方 法 。 


当下 的 MPI 集群 自动 部 署 方法 存在 主 节 点 一 旦 没有 最 先 启动 或 是 崩 江 后 整个 部 署 过 程 


将 完全 失败 的 问题 。 部 署 过 程 


源 调度 方式 仅 适 用 于 平等 地 位 的 节点 调度 , 对 于 MPI 集群 这 样 有 主 次 之 分 的 节点 调度 还 需要 


FPF 虽然 可 以 使 用 资源 调度 算法 分 配 节点 所 在 位 置 , 但 这 样 的 资 


进一步 完善 调度 机 制 . 下 一 步 将 尝试 使 用 Zookeeper 或 是 P2P 算法 结合 对 物理 机 的 实时 性 能 
动态 采集 与 对 比 , 探寻 一 种 同时 具备 节点 容错 和 自我 演化 功能 的 自动 部 署 方法 , 让 各 节点 初 


始 状态 下 进行 平等 地 位 部 署 , 然后 根据 自身 所 在 环境 性 能 情况 和 部 署 状况 自我 演化 出 合适 的 


角色 并 进行 动态 自动 部 署 。 
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Abstract: The Square Kilometer Array (SKA) is under construction. And each sub-work 
package will also enter the critical design evaluation phase. The cloud-based and 
container—based technologies are the platform technologies that SKA Scientific Data 
Processor (SDP) may adopt in the future. This paper is aimed at the rapid deployment, 


operation and measurement requirements of astronomical application software faced 
by SDP ultra-large-scale massive data processing. It fully considers the complex 
operation environment of astronomical application software and the difficulty in 
deploying ultra-large-scale computing clusters in cloud computing environment. For 
this reason, a general automatic deployment method for astronomical application 
using Docker technology is systematically studied and presented. The paper takes 
SAGECaL, a calibration software commonly used for visibility function as an example. 
Firstly, the characteristics of SAGECaL and the difficulties in distributed 
deployment are analyzed. The automatic deployment method of SAGECaL distributed 
cluster based on Docker container technology is given. The experimental results show 
that the automatic deployment method proposed in this paper greatly improves the 
deployment efficiency of SAGECaL distributed cluster, and meets the needs of the 
project team to undertake the deployment and switching of the basic platform required 
for SKA-SDP related testing. At the same time, this work also provides useful ideas 
for the rapid deployment and implementation of other astronomical software in the 
cloud. 

Key words: Automatic deployment; Container technology; SAGECaL; SKA; SDP 


